全息显示、空间锚点以及计算机视觉的未来
编者按:从世界上第一台计算机到我们今天生活中不可或缺的智能手机,计算机的形态发生了天翻地覆的变化。在未来的某一天,我们能不能将计算机像戴眼镜一样戴在头上?微软混合现实设备HoloLens为我们揭示了一种新的可能。在这篇文章里,Marc Pollefeys教授为我们讲述了HoloLens背后的黑科技与他对未来计算机的愿景。本文编译自微软研究院播客文章“Holograms, spatial anchors and the future of computer vision with Dr. Marc Pollefeys”。
Marc Pollefeys博士是瑞士苏黎世联邦理工学院的计算机科学教授,也是微软科学总监、微软混合现实与人工智能实验室主任。他是计算机视觉研究领域的杰出引领者,致力于探索计算机视觉的未来与计算机的未来形态,在2012年被评选为IEEE Fellow。
采访音频:
如果你有一台台式计算机,你可以用它搜到前往某地的路线信息,但由于体积庞大,它无法实时定位你的位置。当你拥有了智能手机,你就能方便地将这台小型移动计算机随身携带,并通过自己大致的定位信息,享受到导航、共享出行等服务。
而在下一代的混合现实中,空间定位技术将更加精确。无需携带小型设备,或紧盯计算机屏幕,通过微软HoloLens这样的混合现实设备,你将拥有实时跟随你移动和调整的屏幕,能以自然的方式将数字信息置于真实世界的环境中。AI会帮你选择和呈现你所需要的信息,让你更轻松地进行阅读、处理和操作。未来,HoloLens会更轻便,而佩戴HoloLens将像今天人们戴眼镜那样普通。
虽然实现这一愿景还需要很长时间,但在企业应用场景中, HoloLens已经证明了它的实力。
HoloLens是作为开发套件诞生的,它是一台完整的头戴式电脑,可以协助机器修理工、外科医生等多种职能完成复杂的任务。HoloLens能根据使用者的需要,把尽可能多的虚拟信息放置于使用者周身的真实环境中,并通过对话、手势等自然的方式进行交互,使你用双手在真实世界中操作时,依然能方便地获取所有帮助你完成操作的信息。
除了企业场景,HoloLens还能为计算机视觉、机器人等领域的研究者提供很大的帮助。HoloLens内置的传感器能跟随使用者的视角来观察世界。HoloLens上设有四个跟踪环境的摄像头,其中的深度摄像头包含两种模式,一种用于跟踪使用者的手部动作,另一种模式可以感知更远的距离,用于重建3D环境。因此,研究者可以从这些传感器上收集到丰富的实时数据,进行各种各样的计算机视觉实验,尤其是可以从第一人称视角了解用户的行为方式。
HoloLens设计中至关重要的一点,是在人们戴上HoloLens并转动头部、四处走动时,用户透过HoloLens看到的全息图要在特定环境中处于静止状态,这就要求HoloLens能精确追踪自己在环境中的物理移动。我们运用惯性传感器和摄像头来实现这一目标,并通过分析图像数据计算HoloLens在真实世界中的移动位置。
作为人类,我们通过眼睛的视觉感知与内耳的惯性感知来确定自己的空间位移。在HoloLens中,我们也运用了相似的机制——视觉惯性测距(Visual Inertial Odometry),根据视觉的惯性数据定位自身的运动状态。它也被称作同步定位与地图构建(Simultaneous localization and mapping),能在定位相对运动的同时建立起一张环境地图,在此后访问同一环境时,就可以根据地图记录纠正所在位置,并在后续定位中将这些因素纳入考量。这一技术在混合现实、增强现实的移动应用、机器人、自动驾驶等领域有着广泛的应用。
在使用中,HoloLens需要持续跟踪使用者的空间定位和手部动作,第二代HoloLens还能通过眼球跟踪来了解使用者的视线方向、根据使用者虹膜进行身份识别等。这些任务要求HoloLens具有优异的续航能力。
因此微软开发了HoloLens专用的小型协处理器HPU(Holographic Processing Unit),不仅在通用计算方面可与最先进的手机处理器相媲美,更能为这些高耗能的计算机视觉处理任务保证续航。HPU能始终以小于10瓦的低功耗状态,高效地进行大规模计算机视觉和信号处理任务。事实上,HoloLens的整体设计都围绕着降低能耗进行。
HPU的设计倾入了很多努力——既要高效,适合图像处理,又要降低渲染延迟,还要通过硬件加速,更要时时刻刻注意降低能耗。
空间锚点是对现实世界的一种视觉锚定。
假设你通过HoloLens将一张全息图放置于现实世界的一个位置,当你再次来到同一个地点,就可以在原来的位置再次看到全息图。这是因为当你将设备移动到某个特定的位置,系统会根据当前环境生成一张地图。你在环境中放置信息时,就把信息添加到了这个地图上。
空间锚点不仅能让你能提取本地地图,还能与云中的其他用户共享全息图。在一个地点放置全息图后,只要用手机通过ARKit或ARCore查找,你在任何时候都能在原来的地点找到它。
这一技术能应用在许多消费端应用中,比如室内导航,我可以将一个物品放在真实世界中,让你通过导航找到它。再举个例子,假设你要为一家拥有各类机器和传感器的企业做一个“数字孪生”应用,你可以在云中对真实世界中的设备其进行数字化的表示。这样,只要打开HoloLens,你就可以在真实世界的机器上看到与它们相关的所有信息。根据你和本地机器的定位,空间锚点技术将为你还原这些信息,并允许你对信息进行删除和移动。
Kinect最初作为游戏设备引入Xbox,并获得了巨大的成功。同时,Kinect也宣布开放,让人们能够访问Kinect生成的3D感应数据。
这在机器人和计算机视觉领域引发了巨大的变革,人们能使用标准化、功能强大且价格低廉的3D摄像头来进行研究。世界各地的计算机视觉和机器人实验室都开始使用Kinect,并基于Kinect开发了许多有趣的技术,许多技术又回到微软,使我们的开发工作受益。我们很高兴看到Kinect在研究领域所发挥的作用。这也是我们在HoloLens上提供研究模式的初衷之一,在为研究界提供一台视觉研究利器的同时,我们也能从意想不到的科研成果中学习和受益。
专为第二代HoloLens 打造的传感器是一款性能极其优异的传感器,它能以每秒3帧的速度,在低于1瓦的功耗下完成100万次百万像素级的独立深度测量。我们将这款传感器置于第三代Kinect中,以面向智能云的使用场景。配合彩色摄像头与最先进的麦克风阵列,这款传感器让Kinect以更高的质量呈现在大众面前。
无论是HoloLens,自动驾驶、辅助驾驶,还是家用机器人,我们的未来生活将被置入越来越多的传感器。我非常关注它们对人类隐私的影响。
在构建帮助我们解决问题的系统时,获取个人信息是不可或缺的,设备必须知道你身处何处,才能为你提供全息图和其他相关信息,同时它不能暴露这些信息。目前我们正在积极研究的相关技术。比如在第一代HoloLens中,我们让连续运行的传感器数量恰好足以维持HoloLens的运转,而且所有数据都只允许操作系统访问,不允许应用程序访问;它们被隔离在HPU中,而不是暴露于运行应用程序的通用处理器上,这是一种通过硬件设计来保护隐私的方式。
为了兼顾功能和隐私,我们必须开展更多的相关研究,为人类营造一个值得信赖的未来。
你也许还想看:
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。